AnyMal: Новый мультимодальный гений Meta, превосходящий GPT-4

Meta недавно представила новую модель искусственного интеллекта под названием EnyMal, которая способна понимать и генерировать различные формы контента, такие как текст, речь, изображения и видео. Это значительный прогресс в мультимодальном обучении, области, которая занимается разработкой моделей, способных обрабатывать различные типы входных данных и генерировать значимые результаты. В этом видео я расскажу, как функционирует эта новая модель искусственного интеллекта, ее производительность в различных задачах, потенциальные применения в различных секторах, а также ограничения, проблемы и этические соображения, связанные с ее использованием.

EnyMal - это модель искусственного интеллекта, которая отлично справляется с пониманием и генерацией различных модальностей, преобразуя различные типы входных данных в текст, который затем может обрабатываться. Она основана на убеждении, что текст является универсальным языком, и большие языковые модели могут эффективно учиться на основе огромного объема данных. Модель состоит из трех основных компонентов: предварительно обученного модуля выравнивания, мультимодального набора инструкций и основы LLM.

Модуль выравнивания преобразует сигналы, специфичные для модальности, в текст. Например, он может преобразовывать изображение в текстовое описание или речевой сигнал в текст. Этот модуль учится на основе обширных мультимодальных наборов данных с использованием методов самообучения. Мультимодальный набор инструкций содержит предопределенные команды, которые направляют EnyMal в выполнении задачи, такие как преобразование текста в речь или генерация текстового описания изображения. Этот набор может быть настроен для выполнения различных задач, включая подписывание изображений и синтез речи из текста.

Основа LLM является сердцем EnyMal и отвечает за логическое мышление и генерацию текстовых ответов. Она основана на Elama 2 и получает текстовые входы от модуля выравнивания, следует командам из набора инструкций и генерирует необходимые текстовые результаты. EnyMal выделяется среди других мультимодальных моделей благодаря своему уникальному дизайну и возможностям.

Например, Chat GPT - это мультимодальная модель, похожая на EnyMal, но она предназначена для предоставления текстовых и изображений в разговорах. Однако у нее есть недостаток. Она работает на отдельной настройке кодировщика для каждого типа ответа, что делает ее менее эффективной при обработке нескольких типов ответов одновременно. С другой стороны, Elama 2 - это еще одна мультимодальная модель, способная предоставлять текстовые и изображения ответы для различных задач, но она ограничена предопределенным набором инструкций, что делает ее менее гибкой для настройки пользователем или адаптации к новым вызовам. Затем есть GPT-4, который отлично справляется с генерацией текста из различных входных данных, включая мультимодальные. Однако у него отсутствует конкретный модуль выравнивания и четкий набор инструкций, что делает его более сложным в понимании и управлении по сравнению с EnyMal.

EnyMal был протестирован в различных задачах, включая подписывание изображений, синтез речи из текста, суммирование видео и ответы на вопросы в разговоре. Его производительность была оценена как человеком, так и автоматическими оценками, наряду с другими моделями, такими как Chat GPT, Elama 2 и GPT-4. В подписывании изображений EnyMal точно описывал изображения с помощью текста. При синтезе речи из текста он эффективно преобразовывал текст в соответствующую речь. При суммировании видео он генерировал краткие текстовые резюме из видео, а при ответах на вопросы в разговоре он предоставлял текстовые ответы на основе комбинации текста и изображений. EnyMal продемонстрировал превосходную производительность по различным метрикам по сравнению с другими моделями. Например, в подписывании изображений он превосходил другие модели по таким показателям, как blue-four, meteor, rouge и cider. Подобные тенденции наблюдались при синтезе речи из текста, где он достигал более высоких показателей по метрикам MOS и Stoi. Человеческие оценщики также дали положительную обратную связь по различным аспектам результатов EnyMal, включая связность, разнообразие, информативность, соответствие и естественность. Оценщики оценивали эти характеристики по шкале от 1 до 5, где 5 - отлично, а 1 - плохо. В среднем EnyMal получил высокие оценки, со связностью 4,3, разнообразием 4,1, информативностью 4,2, соответствием 4,4 и естественностью 4,3. По сравнению с другими моделями искусственного интеллекта, такими как Chat GPT, Elama 2 и GPT-4, EnyMal показал исключительные результаты. Транскрибированный текст кажется в основном точным, но есть несколько ошибок и улучшений, которые можно сделать. Вот исправленная версия:

"имел лучшие результаты. Например, оценки ChatGPT были немного ниже, составляя 3.9, 3.7, 3.8, 3.9 и 3.8 в тех же категориях, в то время как Lama 2 и GPT4 отстали со своими собственными оценками. Тем не менее, EnyMal имеет потенциал для улучшения, особенно в зависимости от качества обучающих данных. Впереди нас ждут вызовы, но обнадеживающие результаты заложили прочный фундамент для дальнейших исследований и улучшений. EnyMal - универсальная модель с применением в различных секторах, таких как образование, развлечения, здравоохранение, электронная коммерция и социальные медиа, предлагающая преимущества, такие как повышение креативности, производительности и вовлеченности. Однако есть риски. Модель может генерировать дезинформацию, нанося ущерб репутации или распространяя ложные сюжеты. Она также может плагиатировать или нарушать права интеллектуальной собственности, воспроизводя контент без должной атрибуции. Поэтому ответственное и этичное использование EnyMal является важным. Установление и соблюдение стандартов и регулирований для мультимодельных моделей, таких как EnyMal, обеспечит использование ее потенциала для блага.

Автор статьи Кирилл Иванов

Обзоры

AnyMal: Новый мультимодальный гений Meta, превосходящий GPT-4

Еще по этой теме

Cheelee | Смотри и Зарабатывай | Как получить NFT очки Бесплатно | GameFi | Заработок Без Вложений

Генератор AI Animation: создайте СОБСТВЕННЫЙ 3D-фильм с AI

Выпущено новое Stable АУДИО!